ارائه الگوریتم های ریشه‏یاب و غلط‏گیر برای متون زبان کردی

پایان نامه
چکیده

زبان کردی که در دسته زبان های هندواروپایی می باشد، توسط ساکنان مناطق وسیعی در کشورهای ایران، عراق، ترکیه و سوریه مورد تکلم قرار می گیرد. علی رغم جمعیت بالای متکلمان زبان کردی، این زبان در دسته زبان های کم منبع قرار دارد و چندان مورد توجه پژوهشگران حوزه پردازش زبان به ویژه بازیابی اطلاعات و پردازش زبان طبیعی قرار نگرفته است. بر همین اساس، با هدف ارائه راه حل و رفع مشکل تنک بودن منابع، اخیرا پروژه پردازش زبان کردی (klpp) در دانشگاه کردستان شروع به کار کرده است. هدف اصلی پروژه، ارائه منابع و ابزارهای ضروری برای پردازش متون زبان کردی می باشد. این گزارش، خروجی های یک پایان نامه ارشد را که در چارچوب klpp به انجام رسیده است، گزارش می کند. اولین خروجی این پروژه، مجموعه پ?وان است، که شامل تعداد زیادی از اسناد نوشته شده به سورانی و کرمانجی –دوگویش اصلی زبان کردی- می باشد. این مجموعه یک منبع زبان شناسی غنی محسوب می شود و بصورت گسترده در تمامی بخش های این پایان نامه برای تسهیل توسعه سایر ابزاها مورد استفاده قرار گرفته است. به دنبال ساخت این مجموعه اسناد، ما مجموعه آزمون پ?وان را به عنوان یک سنگ محک برای سیستم های بازیابی اطلاعات کردی، ایجاد می کنیم. پس از تولید این پیش نیاز ضروری، ما بر روی اهداف اصلی این پایان نامه، که شامل ساخت یک ریشه یاب، یک هسته یاب و یک غلط گیر، برای زبان کردی به طور عام و برای گویش سورانی به طور خاص می باشد، تمرکز می کنیم. برای این هدف، ابتدا ژ?ده ر، یک ریشه یاب مبتنی برقاعده (پشتیبانی کننده از هر دو گویش سورانی و کرمانجی) ایجاد و تاثیر آن را بر بهبود کارایی موتورهای جستجوی کردی نشان می دهیم. سپس، په ی?، یک هسته یاب مستقل از فرهنگ لغت را ارائه می کنیم، که توانایی استخراج هسته کلمات مشتق (افعال یا اسامی) را دارد. په ی?، مبتنی بر مجموعه ای از قواعد ساخت واژه می باشد، که آن ها را از گویش سورانی گردآوری کرده ایم. در نهایت، ??نووس را که یک ابزار غلط گیر متون سورانی می باشد، ارائه می کنیم. غلط گیر از روش های آماری، مبتنی برقاعده و فرهنگ لغت بهره می برد. ??نووس تنها برای تشخیص کلمات اشتباه ارائه نشده است، بلکه می تواند یک لیست از جایگزین های بالقوه را به کاربر پیشنهاد کند. بسیار علاقه مندیم به این نکته اشاره شود که تمامی راه حل های ارائه شده در این پایان نامه، پیاده سازی و کارایی آن ها به صورت تجربی از طریق مطالعات آزمایشی مختلف بررسی شده است. اضافه بر آن، تمامی منابع زبان شناسی و ابزارهای نرم افزاری ارائه شده در طول این پایان نامه، به صورت دسترسی آزاد، در اختیار جامعه پژوهشی قرار گرفته است. امیدواریم که این کار، پژوهش های بیشتر در حوزه پردازش زبان کردی را موجب شود.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

ارائه سیستم خلاصه ساز متون فارسی برمبنای ویژگی های زبان شناختی و رگرسیون

Considering the vast amount of existing written information and the shortage of time, optimal summarization of books, articles, news reports, etc. on the Web is a major concern of researchers. In this paper, we propose a new approach for Persian single-document Summarization based on several linguistic features of text. In our approach after extracting the linguistic features for each sentence,...

متن کامل

ارائه یک سیستم هوشمند و معناگرا برای ارزیابی سیستم های خلاصه ساز متون

Nowadays summarizers and machine translators have attracted much attention to themselves, and many activities on making such tools have been done around the world. For Farsi like the other languages there have been efforts in this field. So evaluating such tools has a great importance. Human evaluations of machine summarization are extensive but expensive. Human evaluations can take months to f...

متن کامل

بررسی تحوّلات واکی واژه های زبان کردی( گویش کلهری) در گذر تاریخ نسبت به زبان پهلوی‌

ایل کلهر، یکی از بزرگ‌ترین ایل‌های بومی ایران است و گویش کلهری نیز یکی از گویش­ های آن - از شاخهٔ زبان­ های شمال غربی- به شمار می‌آید. از مطالعۀ واژه‌های موجود و مستعمل در این گویش(گویش کلهری) چنان برمی‌آید که این واژه‌ها از چنان قدمتی برخوردارند که پیشینهٔ آن‌ها به زبان فارسی میانهٔ پهلوی می‌رسد. پاره‌ای از این واژه‌ها در گذر زمان بدون تغییر باقی مانده و پاره‌ای نیز تحت تأثیر دگرگونی‌های زبانی، د...

متن کامل

استعاره‌های مفهومی رنگ در زبان کردی ایلامی

  چکیده   تا قبل از پیدایش زبانشناسی شناختی، "استعاره" </s...

متن کامل

ارائه روشی جدید برای شاخص‌گذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشه‌بندی متون

Persian words in writing with a diverse and cover all modes of grammatical words with the recruitment of a series of specific rules because it is impossible to extract keywords automatically from Persian texts difficult and complex. This thesis has attempted to use linguistic information and thesaurus, keywords Mnatry be provided. Using the symbol system is structured network can be keywords, i...

متن کامل

ارائه روشی برای استخراج کلمات کلیدی و وزن‌دهی کلمات برای بهبود طبقه‌بندی متون فارسی

Due to ever-increasing information expansion and existing huge amount of unstructured documents, usage of keywords plays a very important role in information retrieval. Because of a manually-extraction of keywords faces various challenges, their automated extraction seems inevitable. In this research, it has been tried to use a thesaurus, (a structured word-net) to automatically extract them. A...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه کردستان - دانشکده مهندسی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023